查看原文
其他

高清视频发送:免编程学生信-genespring挖掘数据实操+现场答疑 线上沙龙第六期

2017-09-18 freescience联盟 Freescience联盟

小伙伴们,免编程找差异的genespring软件好用吗?赵老师写了一整个系列,用还原文献的方式介绍了genespring的使用(发送大数据到后台,领说明书+查看整个系列)。发送沙龙到后台,复习前几期的沙龙内容。


上周六,赵老师为大家在线讲解了免编程学生信-genespring挖掘数据实操,并现场解答群友提出的相关提问(qq群463367325)。


(*  ̄3)(ε ̄ *)感谢小编编组的辛苦工作,大家可以领视频了!

 

发送 GSNX 到后台,马上得全套现场课程+答疑视频,跟随两位老师的逻辑,开始小白的历练之路吧~


最近提过问题但错过现场答疑的同志,仔细看推送中有没有自己的提问,领到录像好好学习……


要是有追问,可以组织语言在群里求助(提问前请仔细阅读这篇求助得回应秘诀,如果没有解答,周六统一直播回答。点这里查看什么是优质的提问~


发送到有道云笔记的优质提问会有专场解答,发送问题到 FreescienceGroup http://163.fm/8u4j0a7k   (点这里看欧阳同学整理的有道云使用心得)。


通知:本周起freescience周末沙龙直播改用腾讯课堂,听课每位收费2元,也可以0元参与(发送 0元参与 到后台了解方法)。 课程是meta与生信专题每周轮替,并设有答疑环节,解决每周读者和群友提出的问题。     


赵老师的生信沙龙问答版

问:同一平台的不同芯片可不可以不整合分析,单独分析每一张芯片后再取交集,得到DEG

赵忻艺部分文字回答:如果只有两个数据集,可以每个数据集内的芯片分析后,再求交集

 

问: 没有对应基因名称的探针,分析前剔除掉吗?

赵忻艺部分文字回答:分析前或后剔除都没有关系,不影响结果。

 

问: 赵老师,metaOmics怎么样

赵忻艺部分文字回答:可以用来分析基因芯片的整合分析


问: 二代测序的数据怎么下载呀,之前想用一直下载不了

答:prefetch -sraXXXX下载

赵忻艺部分文字回答:可以到ncbi下的sra数据库下载

 

问:在genespring里的中间环节处理得到的数据是否可以导入R吗?在geo里有些芯片数据没有发表,这些芯片数据的价值大吗?如果大为什么作者不发呢?有不少没发的。

赵忻艺部分文字回答:可以导出矩阵格式

赵忻艺部分文字回答:部分在投稿中,部分是文章发后没有更新信息

 

问(留言板):如果是illumina公司的芯片,数据格式是txt的,要怎么分析呢

赵忻艺部分文字回答:见之后课题实操

 

问(留言板):发现遇到了 已证实的mir和mrna后面链接的pmid文章并不是相对应的文章 有时候好几个mir后面的pmid号是一个 点开也不是相应的 有人遇到了吗

赵忻艺部分文字回答:举个例子,给出编号,否则信息不完全无法判断

 

问(留言板):调控KANSL2启动子区域的转录因子 是怎么查的?在NCBI上吗?

赵忻艺部分文字回答:可以通过文献。如果没有被报道,可以生信预测的,百度一下有许多工具可以做转录因子预测。

 

问:您好 geo数据库 采用ago2r分析结果不知道哪个是lnc 哪个是mrna

有什么方法?谢谢!

赵忻艺部分文字回答:一般有平台注释信息,可以通过注释查看。一般lncRNA芯片是公司定制的,有可能平台注释信息没有标注哪些是lnc,哪些是mRNA。这个时候需要BLAST。但是BLAST需要比对的数据库,而公司定制芯片参考了很多的数据库,所以比对起来比较麻烦,可能不全。最好找公司要注释信息。BLAST mRNA还是比较好的

 

问:我想下载TCGA结肠癌数据,下载到的只有癌组织的,也就是样本编号是-01,没有10的,请问experession的数据是不是应该有10也就是癌旁组织的数据. 甲基化的数据里面是有-11,的数据

赵忻艺部分文字回答:不是所有的TCGA肿瘤的数据都有癌和癌旁,有些肿瘤只有癌。

 

问:从GEO下载的affymetrix公司的芯片原始数据文件,CEL结尾的,要不要先质量控制(查看芯片灰度、画箱线图、画降解曲线等)剔除一些样本,还是可以直接使用预处理的一体化算法比如MAS5、RMA等来标准化,然后就直接可以用R语言limma包差异分析了?

赵忻艺部分文字回答:要质控的,不过一般现在芯片都比较成熟,质量问题一般都是样本质量引起的。如果有些样本相差很大,就需要剔除。一般来说不去考虑剔除样本,不然会非常复杂。如果是发现金标准指标不对,可以回过头来,考虑剔除样本。这个问题需要综合考虑,结合具体的情景。


问:调控KANSL2启动子区域的转录因子是怎么查的?在NCBI上吗?

赵忻艺录像中会进行演示。

 

问:

大家好,根据找差异分子案例实践——万能芯片数据分析(五),我们先设置万能芯片法(以该法设置的例子GSE35306为例),在后续分析进行差异分子寻找,这需要根据了大数据系列-找差异分子案例操作实践(四 所指导的那样。最后,我们要进行实验组别的设置,也如案例操作实践(四)所指导的那样。但在create interpretation设置后,却发现问题了,出现了java.lang.integer cannot be cast to java.lang.string 这一提示。虽然这一提示不会影响某些统计学和差异分子倍数的寻找,但这些结果的最终table 都无法导出了。请高手指导下,这是为什么,如何改正。

采用赵老师用的万能芯片法后,制作了一个万能芯片(数据使用GSE35306)。芯片做好后,也导入了矩阵数据,一切就如赵老师的教程所写。定义了实验组别,但在Create Interpretation是报错了

之后,很多地方都会报错,数据和图片都无法显示,比如统计学最后一步这里(随便选了一个统计方式)。 不知道如何解决?

(赵忻艺录像中已回答)

赵忻艺部分文字回答:要分析发生错误的原因,这是一个个例的错误。可能是路径中有中文字符,或者电脑某个设置有问题。可以把软件卸载重装,万一不行,可以换一台电脑试试。


:从官网下载的cytoscape插件怎么用软件打开

赵忻艺部分文字回答:用cytoscape打开

 

:请教一下,信号通路互作网络怎么制作的?

赵忻艺部分文字回答:用cytoscape制作

 

:弱弱的问一下,从pdb数据库里面的蛋白id怎样可以得到对应的基因id了?

uniprot网站

赵忻艺部分文字回答:Uniport应该有对应的基因id,好好研究下uniprot网站的界面

 

问:希望下次课的时候老师可以介绍一下genespring中新建实验后experiment type中的这些选项,之前导入GEO下载的Agilent芯片的时候这个地方就出现了报错,把相关的选项都试了一下才导进去,不知道是不是只要数据能成功导入就代表这个选择是正确的?还有,Agilent expression single color 或者Agilent expression two color 应该如 35 37875 35 13551 0 0 5130 0 0:00:07 0:00:02 0:00:05 5129选择,平台信息好像没有这么具体,那应该怎么办?


赵忻艺部分文字回答:判断单,双通道上期视频中有讲解到。

点这里期沙龙视


问:oncomine中,想分析两个基因在乳腺癌和癌旁组织中是否具有相关性,可以同时分析吗?上面那个图片中的两个基因分析是同时进行的吗?还是单个分析然后整合在一张图上?请赐教,谢谢了!

赵忻艺部分文字回答:如果能下载两个基因的在样本中的所有表达信息就可以进行相关性分析,可以整合


问:各位前辈大家好,我有个问题想请教大家。就是我用affay的包跑GEO芯片的差异基因,运行到这个命令的时候出现无问题了,这个要怎么解决呢?谢谢大家

赵忻艺部分文字回答:缺少注释文件,下载对应的注释信息,然后加载。


:请问下这是哪里出问题了啊?

赵忻艺部分文字回答:这个信息太少,无法回答,自己多多模仿例子再试试。自己找找哪里的操作不一样。


:求助,用RMA处理数据,要求载入hgu133puls2cdf 包。求教大神,为什么错啊?hgu133puls2cdf包我下载了也bioclite了也library了,就是用不了。

赵忻艺部分文字回答:可能是缺少包,要结合具体情景自己去推测。


:有没有人知道进去TCGA数据库后,点击launch Data Portal进去GDC后没有Analysis这个选项?

: 现在改版了。http://gdac.broadinstitute.org/ 试试这个

:好的,我试试,谢谢了

: 加载不出来,是什么原因?

: 你试试谷歌浏览器

: 有人知道这个下载后是打开是乱码,是因为什么吗?https://mp.weixin.qq.com/s/4BF5Yd2PGl04ilINwr3EBw

赵忻艺部分文字回答:需要翻墙

课件的分割线

之前的课程中,我们通过数据库拿到了免费的数据,今天我们就开始分析它们了,这个过程就叫做“数据挖掘”。


首先介绍下基因芯片软件和工具。基因芯片分析一般对硬件要求不高,普通的PC机就能运行,但如果处理较多的数据量时,建议提高内存,如果拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多,但各有优缺点。根据难易程度推荐以下三款软件和工具。


GeneSpring 

优点:互动式的视窗操作界面,傻瓜式操作,功能强大,拥有超过4400篇的高水平参考文献的引用,表达谱数据分析的金标准。

缺点:商业软件收费,操作繁琐,功能拓展性差。如同SPSS一样,适用于零基础的鞋同。

BRB-Array 

 优点:基于excel的分析工具,自动调用R包,功能强大,拓展性强,操作简单,免费使用。

缺点:专业性强,格式要求高,稍有不符就报错。适用于有一定基础且对英文说明书研究要透彻。

R—Bioconductor

优点:R语言,生信必学的分析工具,强大的统计分析和作图工具,集合了几乎所有和最新的分析算法和工具包,任你免费调用。

缺点:对于拥有安装某个R包就研究几天经历的鞋童们就不用多说了吧!

那么便于零基础的鞋童这里采用GeneSpring进行分析。我们以上次讲到的GSE15765为例90个样本,从cel文件开始分析。

GeneSpring界面


新建项目,命名。


新建实验,命名。


选择芯片平台,即哪家公司的哪类产品。


选择高级分析,点击ok。


选择文件,导入cel文件。


输入arr文件,不用输入跳过这步点next。


选择算法,从还原文献中得知采用RMA。一般选择中位数作为基线。


点击完成后,运行。最终生成了一个22277个探针*90个样本的矩阵格式形式了。


接下来就是导入平台注释文件,告诉你这些探针号代表的基因是什么。


导入对应的上期所讲的平台注释txt文件。


记得打开它,把多余的标题删除,保持也是矩阵形式。


选择你要匹配的id和注释的信息。根据文献,我们就选择ID,Gene Symbol,ENTREZ_GENE_ID和Gene Title。当然也可以选择更多信息来注释你的探针。


这样就完成注释了。


最后就是要输入样本的分组信息。只有知道样本的分组信息才能进行统计,没有比较就没有差异。


添加一个分组变量,命名type,非数值型。


根据实验分组信息,对具体样本编号进行hcc,hcc-icc,icc分组。


然后点击create interpretation来进一步描述统计目的。


选择不连续变量。


选择包含三个分组,取均值。


产生了三组的图谱。可以指针悬停看什么基因。


接下来是统计,可以进行三组检验的各种统计分析。


如果只想进行两组(例如hcc和icc)的检验。那么重新create interpretation,只选择hcc和icc。这里举例hcc和icc,用非配对的t检验。


根据你不同的目的选择不同的统计方法。


设定p值的阈值。


筛选出14633个探针,p<0.05。


接下来再根据差异倍数进一步筛选。


选择HCC v ICC。


选择2倍差异阈值。


总共4151个探针,至少两倍差异,p<0.05被筛选出来了。


右击鼠标导出数据。

打开txt,就得到最终的详细列表。


最后可以通过txt导入excel,进一步整理成发表论文的表格,这样就大功告成了。


这期就到这里了,下期将进一步实现如何把不同类型的芯片数据集整合在一起,即还原文献中以下这段过程。



关于GeneSpring的安装下载,可从官网机构邮箱注册获得,可以免费试用7天

本期也有几个提问:


如果数据集没有cel格式的原始数据,只有矩阵文本是否能用GeneSpring来统计分析差异?怎么操作?


GeneSpring还能做哪些分析?怎么操作?


赵老师的生信沙龙提问版

问: 赵老师,您好。请问通过genespring得出两组(实验VS正常)的差异基因后,能否按所纳入的样本数目聚类,而非分组数聚类?

(赵忻艺录像中已回答)


问: 可以直接发文章吗

(赵忻艺录像中已回答)

赵忻艺部分文字回答:纯分析发文章需要新意,立意、样本量、分析方法等等。

 

问 :在r上跑WGCNA需要多大内存?

(赵忻艺录像中已回答)

 

问: 老师,相关性分析怎么分析呢?

SNP比较老的芯片,可以跟现在什么数据库的芯片对比呢?

可不可以每个样本的癌和癌配对的旁对照呢?

是不是按基因分两组,每组基因的表达量?

赵忻艺部分文字回答:Peasrson相关系数进行分析,可以自己去百度一下。GeneSpring是分析基因表达的,SNP可以PLink来进行分析。GeneSpring可以做配对t检验,但是需要给出配对信息。具体看视频操作。


 

问:在相同p,FC的标准下,不同的差异基因分析的软件或网页工具,结果会差异吗?写文章需要说是用什么方法找的差异基因吗?

(赵忻艺录像中已回答)

赵忻艺部分文字回答:需要说明方法,文章都会说明。同样的统计指标和p值,但是不同的工具得出的结果会有差异,因为背后涉及的算法是不一样的。大家关心的不是筛选出来的是1000个差异基因,还是1200个差异基因,关注的是前100个或者前10个是否是相同的,这个才是有意义。


实名制直播群

~~~~(>_<)~~~~国家规定群主背锅


大家都有注意到,直播问答会暴露群成员的个人信息。为避免不必要的麻烦,入群一概实名。


有不良行为者会受到学术公众号、交流群的抵制。

知识需要传播和交流,学习的过程中如果遇到具体问题,欢迎大家按需进入以下主题交流群。入群前发送wg21到后台,查看入群提问须知。


QQ群:463367325, 291901204,162170652,659556739,6287665


注意:
1. 是发送后台,而非留言区或其它地方。
2. 请务必发对关键词,否则是收不到的。



生信大数据版主介绍:赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存